La meilleure qualité qu'on peut atteindre en recréant une voix de manière synthétique est limitée par le vocodeur, qui est la composante chargée de produire le son final. Ici on démontre quelle qualité pourrait être atteinte dans les meilleures conditions en utilisant le vocodeur UnivNet (version c32), entraîné sur 192 heures de parole lue (sous-ensemble train-clean-360 de LibriTTS).
Le signal est produit avec une fréquence d'échantillonnage de 24 kHz plutôt que 48 kHz pour que la quantité de données et les calculs nécessaires restent raisonnables.
À partir d'un audio original, par exemple test_waves/Salvage_Hunters_S03_Ep21_short.wav:
On extrait une représentation simplifiée, sous forme de spectrogramme:
Le vocodeur recrée l'audio en se basant uniquement sur cette représentation.
Dans la conversion de voix, on va modifier la représentation pour changer l'identité du locuteur, ce qui va introduire des distorsions supplémentaires. Ici, en utilisant la représentation intacte, sans appliquer de conversion, on peut vérifier quels résultats pourraient être obtenus si la représentation était modifiée de façon optimale par la conversion de voix:
Pris au hasard parmi les séries, donc de la parole qui n'est pas lue, contrairement aux données d'entraînement.
Original Reconstructed KillerClowns_S01_EP01_short.wav KillerClowns_S01_EP01_short_reconstructed_epoch0288.wav
Original Reconstructed KillerClowns_S01_EP01_long.wav KillerClowns_S01_EP01_long_reconstructed_epoch0288.wav
Original Reconstructed Mayday_S07_Ep54_short.wav Mayday_S07_Ep54_short_reconstructed_epoch0288.wav
Original Reconstructed TedBundyTheSurvivors_EP01_short.wav TedBundyTheSurvivors_EP01_short_reconstructed_epoch0288.wav
Original Reconstructed TedBundyTheSurvivors_EP01_long.wav TedBundyTheSurvivors_EP01_long_reconstructed_epoch0288.wav
Original Reconstructed Salvage_Hunters_S03_Ep21_short.wav Salvage_Hunters_S03_Ep21_short_reconstructed_epoch0288.wav